Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37
Warning: file_put_contents(aCache/aDaily/post/dsproglib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50 Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение | Telegram Webview: dsproglib/6430 -
📈Холивар: NumPy против pandas против PySpark — кто рулит в данных
Дата-сайентисты, делитесь: чем копаете свои миллионы строк?
🐍NumPy — минимализм и математика • Основа всех ML-библиотек. • Векторы, матрицы, broadcasting — строго, быстро, эффективно. • Если ты знаешь np.dot и np.linalg, тебя зовут в глубины ML.
Но: • Строгая типизация и отсутствие удобных табличек. • Хотел сделать фильтр по колонке? Сначала reshape. • IndexError: too many indices — старая знакомая.
📊pandas — король табличек • df.head() — и ты уже видишь суть. • Гибкость, группировки, фильтрации — словно Excel на стероидах. • Подходит и для EDA, и для препроцессинга.
Но: • Большой датасет? Привет, out of memory. • Интуитивно, но не всегда предсказуемо. • SettingWithCopyWarning — и ты не уверен, изменил ли что-то вообще.
🔥PySpark — big data и кластеры • Когда данных слишком много для pandas. • Распределённые вычисления, lazy evaluation, Spark SQL. • Подходит для продакшена, когда ноутбук уже плачет.
Но: • Стартуем JVM… подождите немного. • Написал три строчки — получил лог на 300 строк. • Не для быстрых экспериментов.
📈Холивар: NumPy против pandas против PySpark — кто рулит в данных
Дата-сайентисты, делитесь: чем копаете свои миллионы строк?
🐍NumPy — минимализм и математика • Основа всех ML-библиотек. • Векторы, матрицы, broadcasting — строго, быстро, эффективно. • Если ты знаешь np.dot и np.linalg, тебя зовут в глубины ML.
Но: • Строгая типизация и отсутствие удобных табличек. • Хотел сделать фильтр по колонке? Сначала reshape. • IndexError: too many indices — старая знакомая.
📊pandas — король табличек • df.head() — и ты уже видишь суть. • Гибкость, группировки, фильтрации — словно Excel на стероидах. • Подходит и для EDA, и для препроцессинга.
Но: • Большой датасет? Привет, out of memory. • Интуитивно, но не всегда предсказуемо. • SettingWithCopyWarning — и ты не уверен, изменил ли что-то вообще.
🔥PySpark — big data и кластеры • Когда данных слишком много для pandas. • Распределённые вычисления, lazy evaluation, Spark SQL. • Подходит для продакшена, когда ноутбук уже плачет.
Но: • Стартуем JVM… подождите немного. • Написал три строчки — получил лог на 300 строк. • Не для быстрых экспериментов.
For some time, Mr. Durov and a few dozen staffers had no fixed headquarters, but rather traveled the world, setting up shop in one city after another, he told the Journal in 2016. The company now has its operational base in Dubai, though it says it doesn’t keep servers there.Mr. Durov maintains a yearslong friendship from his VK days with actor and tech investor Jared Leto, with whom he shares an ascetic lifestyle that eschews meat and alcohol.
Among the actives, Ascendas REIT sank 0.64 percent, while CapitaLand Integrated Commercial Trust plummeted 1.42 percent, City Developments plunged 1.12 percent, Dairy Farm International tumbled 0.86 percent, DBS Group skidded 0.68 percent, Genting Singapore retreated 0.67 percent, Hongkong Land climbed 1.30 percent, Mapletree Commercial Trust lost 0.47 percent, Mapletree Logistics Trust tanked 0.95 percent, Oversea-Chinese Banking Corporation dropped 0.61 percent, SATS rose 0.24 percent, SembCorp Industries shed 0.54 percent, Singapore Airlines surrendered 0.79 percent, Singapore Exchange slid 0.30 percent, Singapore Press Holdings declined 1.03 percent, Singapore Technologies Engineering dipped 0.26 percent, SingTel advanced 0.81 percent, United Overseas Bank fell 0.39 percent, Wilmar International eased 0.24 percent, Yangzijiang Shipbuilding jumped 1.42 percent and Keppel Corp, Thai Beverage, CapitaLand and Comfort DelGro were unchanged.
Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from id